跳至主要内容
OpenAI

最后更新时间: 2025年8月15日

安全评估中心

我们进行评估以衡量每个模型的安全性和性能,并公开分享这些结果。

禁止内容

这些评估检查模型是否符合 OpenAI 政策中禁止的内容请求,包括仇恨内容或非法建议。

越狱评估

这些评估包含旨在绕过模型安全训练的对抗性提示,诱使模型生成有害内容。

幻觉评估

这些评估衡量模型产生事实错误的情况。

指令优先级体系评估

这些评估衡量模型在处理发送给模型的三类消息时,是否遵循用于优先级排序的框架。

该中心提供 OpenAI 模型安全评估结果的访问权限。这些评估结果包含在我们的系统卡中,并作为我们内部决策模型安全性和部署的一部分。

虽然系统卡在发布时描述了安全指标,但通过该中心我们可以持续分享指标。我们将定期更新该中心,作为公司层面更主动沟通安全问题的持续工作的一部分。

随着 AI 评估科学的发展,我们致力于开发更具可扩展性的模型功能与安全评估方法,并分享我们的进展。随着模型功能与适应性不断提升,传统方法可能因无法体现显著差异(我们称之为“饱和”)而过时或变得无效,因此我们定期更新评估方法以适应新模态和新兴风险。

通过在此分享部分安全评估结果,我们希望这不仅能让公众更易理解 OpenAI 系统安全性能的演进历程,更能助力业界提升人工智能领域的透明度建设。这些数据仅反映安全工作的局部指标,并非 OpenAI 全部安全体系的完整呈现。要全面了解模型的安全性和性能,应将我们在此提供的评估结果与系统卡准备框架评估,以及各产品发布时配套的技术研究报告相结合,进行综合研判。

如何使用本页面

本页面描述了我们安全评估的一部分,并展示了这些评估的结果。您可以选择想要了解的评估,并比较不同 OpenAI 模型上的结果。当前页面描述了四类基于文本的安全性能评估:

  • 禁止内容:这些评估检查模型是否符合 OpenAI 政策中禁止的内容请求,包括仇恨内容或非法建议。
  • 越狱评估:这些评估包含旨在绕过模型安全训练的对抗性提示,诱使模型生成有害内容。
  • 幻觉评估:这些评估衡量模型产生事实错误的情况。
  • 指令优先级体系评估:这些评估衡量模型是否遵循其用于优先处理发送到模型的三类消息的框架(即优先处理系统消息中的指令而非开发者消息,以及优先处理开发者消息中的指令而非用户消息)。

禁止内容

我们用于禁止内容和过度拒绝的标准评估集,以及我们创建的第二个更具挑战性的“挑战”测试集,用于衡量这些模型安全性的进一步进展。

我们使用一个自动评分模型输出(也称为自动评分器)的工具来评估完成情况,检查两个主要指标:

对于标准和挑战性评估,我们还包括更高严重性类别中子指标的详细分解。

越狱评估

我们评估模型对越狱攻击的防御能力:这类对抗性提示专门试图诱使模型生成本应拒绝输出的内容。我们针对两类评估进行测试:StrongReject(在新窗口中打开),这是一个学术越狱基准测试,用于评估模型对抗文献中常见攻击的抵抗力;以及一组人工越狱攻击,这些提示来自人类红队测试。

幻觉评估

我们通过两个旨在诱发幻觉的评估来评估模型,即 SimpleQA 和 PersonQA。SimpleQA 是一个包含四千个事实查询问题的多元化数据集,问题配有简短答案,用于衡量模型对尝试回答的准确性。PersonQA 是一个包含关于人物的问题及公开可用事实的数据集,用于衡量模型对尝试回答的准确性。下文的评估结果代表模型在无法浏览网页情况下的基础性能。我们预计,包含浏览功能的评估将有助于提升某些幻觉相关评估的性能。

对于这两项评估,我们考虑两个指标:

  • 准确率:模型是否正确回答了问题
  • 幻觉率:检查模型产生幻觉的频率
A diverse dataset of four thousand fact-seeking questions with short answers and measures model accuracy for attempted answers.

指令优先级体系评估

我们的模型严格遵循指令优先级体系进行训练,该结构明确规定了当不同优先级指令发生冲突时模型的行为准则。我们目前将消息分为三类:系统消息、开发者消息和用户消息。我们收集了不同类型消息相互冲突的示例,并监督模型遵循(在新窗口中打开)系统消息中的指令优先于开发者消息,以及开发者消息中的指令优先于用户消息。

To pass this eval, the model must choose to follow the instructions in the highest priority message.

常见问题解答

本中心仅展示基于文本交互的部分安全评估项目。

Changelog

August 15, 2025: We updated the hub to include results for GPT‑5 and gpt-oss models, to feature our new Production benchmarks, and to provide more detailed information on StrongReject results, disaggregating results by category.